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串联 质谱 和 蛋 日 质 鉴 定 的 关键 计算 问题 


付 岩 贺 思 敏 孙 瑞 祥 SERA 


Ud 


摘要 :， 蛋 白质 鉴定 是 蛋白 质 组 学 研究 的 基础 问题 ， 而 利用 串联 质谱 搜索 蛋白 质 序列 数据 库 是 目前 蛋白 质 鉴 
定 最 成 功 和 最 常用 的 方法 。 和 蛋白 质 鉴定 软件 本 质 上 是 一 个 信息 检索 系统 ， 具 有 检索 系统 的 共性 ， 但 与 文本 
或 多 媒体 检索 相 比 ， 又 有 其 非常 特殊 之 处 ， 比 如 对 检索 结果 进行 可 靠 性 评估 是 蛋白 质 鉴定 必 不 可 少 的 一 步 ， 
而 这 对 于 其 它 检索 问题 往往 是 不 需要 的 。 本 文 综述 蛋白 质 鉴定 搜索 引擎 中 的 关键 计算 问题 及 其 研究 进展 ， 
包括 数据 库 搜索 匹配 打分 、 鉴 定 结果 可 靠 性 统计 评估 、 和 蛋白 质 修饰 鉴定 等 ， 并 对 我 们 自己 研制 的 蛋白 质 鉴 
定 搜索 引擎 pFind 做 简要 介绍 。 

关键 词 ， 生 物 信息 学 ， 和 蛋白 质 鉴定 ， 质谱， 信息 检索 ;，pFind 


人 1 引言 


2001 年 2 月 ， 人 类 基因 组 计划 (Human Genome Project HGP) 组 织 和 美国 Celera 公司 分 
别 在 《自然 (Nature)》 和 《科学 (Science)》 上 公布 了 人 类 基因 组 工作 草图 及 初步 分 析 结 果 。 
人 类 基因 组 测序 工作 的 基本 完成 , 标志 着 后 基因 组 时 代 的 到 来 , 生命 科学 的 研究 在 寻找 新 的 
生长 点 。2001 年 4 月 在 美国 成 立 了 以 国际 合作 研究 蛋白 质 组 为 主要 任务 的 人 类 和 蛋白 质 组 组 
ZH (Human Proteome Organization, HUPO)， 随 后 各 种 和 蛋白质 组 计划 相继 展开 ， 包 括 美国 主导 
— 的 人 类 血液 蛋白 质 组 计划 , 中 国 主导 的 人 类 肝脏 和 蛋白质 组 计划 , 德国 主导 的 人 类 脑 蛋白 质 组 
os HUES. AN, EDM AES RP EARS F REER, p 
一 政府 将 蛋白 质 科 学 列 为 《国家 中 长 期 科学 与 技术 发 展 纲要 》 四 个 重大 科学 计划 之 一 ， 作 为 我 
p< 国 2006 年 到 2020 年 期 间 生 命 科学 的 研究 主题 。 


= “和 蛋白 质 组 ”(Proteome) 一 词 最 早 是 由 威 金 斯 (Wilkins) 等 人 于 1994 年 首次 提出 的 ， 用 
于 描述 基因 组 的 蛋白 质 对 应 物 。 和 蛋白 质 组 是 指 生 物 细胞 、 组 织 或 器 官 在 给 定时 刻 和 给 定 条 件 
下 表达 的 蛋白 质 的 全 体 。 顾 名 思 义 ， 和 蛋白 质 组 学 就 是 对 蛋白 质 组 的 研究 ， 其 最 基本 的 任务 就 
是 确定 特定 有 机 体内 全 体 蛋 白质 的 状态 ， 包 括 表达 、 定 量 、 修 饰 、 突 变 等 方面 。 和 蛋白 质 是 | 
氨基 酸 分 子 聚合 而 成 的 生物 大 分 子 , 蛋白 质 的 氨基 酸 序 列 唯一 确定 了 和 蛋白质 的 身份 。 大 多 数 
的 蛋白 质 在 从 脱氧 核糖 核酸 (Deoxyribonucleic acid, DNA) 经 信使 核糖 核酸 (Messenger 
ribonucleic acid, mRNA) 翻译 过 来 之 后 ， 还 会 在 特定 氨基 酸 上 发 生化 学 修饰 ， 这 样 才能 实 
现 其 生物 活性 。 因而, 对 蛋白 质 序列 的 鉴定 以 及 对 和 蛋白质 翻 译 后 修饰 的 刻画 对 于 系统 了 解 蛋 
白质 的 结构 、 功 能 及 进化 关系 等 关键 的 生物 学 知识 具有 十 分 重要 的 意义 。 


生物 质谱 是 目前 大 规模 蛋白 质 鉴定 的 主流 技术 ,其 优势 在 于 高 灵敏 度 、 高 通 量 和 高 精度 
等 外。 在 典型 的 自 底 向 上 和 蛋白质 组 学 研究 策略 中 ， 蛋 白质 样品 被 酶 解 成 肽 段 混 合 物 ， 后 者 通 
过 色谱 -质谱 联 用 生成 串联 质谱 。 从 串联 质谱 重 构 出 肽 段 序 列 ， 是 蛋白 质 鉴定 的 核心 计算 问 
题 。 目 前 ， 最 成 功 和 最 常用 的 解决 方法 是 用 串联 质谱 搜索 蛋白 质 序列 数据 库 ， 将 数据 库 中 的 
序列 做 理论 酶 切 和 理论 人 碎 列 ， 然后 将 预测 的 谱 图 跟 实 验 谱 图 匹配 ， 从 而 鉴定 肽 序列 ， 进而 鉴 
定 整个 重 白 。 基 于 和 绰 白 质 序列 库 搜索 的 蛋白 质 鉴定 ， 实际 上 是 一 个 检索 系统 ， 其 核心 计算 问 
题 是 谱 图 匹配 的 肽 打分 算法 。 同时, 为 了 得 到 正确 的 鉴定 结果 ， 和 蛋白 质 鉴定 系统 还 必须 对 检 
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Tn 
1: 


索 结 果 的 可 靠 性 进行 统计 评估 。 和 蛋白 质 的 修饰 给 和 蛋白质 鉴定 检索 系统 的 速度 和 精度 都 带 来 了 
更 大 挑战 。 本 文 下 面 主 要 就 从 这 几 方 面 综述 蛋白 质 鉴 定 中 的 关键 计算 问题 及 目前 的 解决 策 
略 ， 在 这 之 前 先 简要 介绍 相关 的 生化 背景 。 


2 ”生化 背景 知识 


1.1 蛋白质 和 肽 


蛋白 质 是 一 切 生 命 的 物质 基础 , 广泛 存在 于 各 种 生物 组 织 细胞 中 , 是 生物 细胞 最 重要 的 
组 成 物质 。 和 蛋白 质 是 一 类 重要 的 生物 大 分 子 ， 是 生物 体内 结构 和 功能 的 主要 载体 。 人 体 中 和 蛋 
白质 多 达 10 万 种 以 上 ， 结 构 和 功能 千差万别 。 但 是 ， 所 有 和 蛋白质 都 是 由 叫做 氨基 酸 的 分 子 
连接 而 成 的 。 氨 基 酸 分 子 的 通 式 如 图 1 所 示 。 氮 基 酸 是 由 o- 碳 原子 ， 以 及 与 其 相连 的 羧基 
(-COOH )、 氮 基 (-NH)、 所 原子 (G 和 侧 链 基 团 R 构成 的 。 不 同 的 氨基 酸 具 有 不 同 的 侧 链 
基 团 。 一 个 氨基 酸 的 羧基 可 以 与 另 一 个 氨基 酸 的 氨基 缩合 脱水 形成 酰胺 键 ( 称 为 肽 键 ) 而 连接 
起 来 ， 如 图 2 所 示 。 多 个 氨基 酸 以 肽 键 顺序 相连 ， 形 成 链 状 分 子 ， 称 为 肽 ， 通 常 称 氮 基 端 为 
= N vig, PRAGMA Cin, WAL 3 所 示 。 由 两 个 氨基 酸 构成 的 肽 称 为 二 肽 ， 由 2 到 10 个 氨基 酸 


之 构成 的 及 成 为 塞 肽 ， 由 10 个 以 上 氨基 酸 构 成 的 及 成 为 多 肽 。 分 子 重 量 在 10K Da 以 上 的 多 
O 肽 称 为 蛋白 质 。 
H H 
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图 3， 肽 链 


绝 大 多 数 的 蛋白 质 是 由 常见 的 20 种 氨基 酸 组 成 的 。 有 少数 蛋白 质 包含 几 百 种 不 常见 的 
氨基 酸 以 及 非 肽 链 结构 的 其 它 组 成 成 分 ( 称 为 配 基 或 辅 基 )。 和 蛋白 质 的 氨基 酸 序列 称 为 蛋白 质 
的 一 级 结构 。 蛋 白质 可 以 通过 折 著 等 形成 二 级 和 三 级 等 空间 结构 。 和 蛋白 质 的 一 级 结构 ， 即 蛋 
白质 的 氨基 酸 序列 (简称 蛋白 质 序 列 )， 唯 一 确定 了 蛋白 质 的 身份 。 本 文 所 述 的 蛋白 质 鉴定 问 
题 ， 就 是 指 对 蛋白 质 序列 进行 鉴定 。 


1.2 生物 质谱 技术 


最 初 ， 蛋 白质 序列 鉴定 主要 采用 手工 的 埃 德 曼 降 解 - 环 甲 基 化 方法 ， 效 率 很 低 。 质 谱 技 
术 (Mass Spectromety，MS) 的 发 展 为 蛋白 质 序列 鉴定 开辟 了 新 的 途径 .4。 
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JETER AR EAS J EL SENAY. A 


E 质 谱 分 析 中 ， 竺 分析 的 物质 粒子 首先 被 离子 化 ， 


然后 再 通过 适当 的 电磁 场 。 


荷 比 为 横 坐 标 ， 以 离子 强度 为 纵 4 


由 于 不 同 质量 电荷 比 的 离子 对 电磁 场 的 反应 不 同 , 因而 可 按照 运 
动 轨迹 和 时 间 等 进行 分 离 和 检测 。 离 子 的 强度 同时 也 被 检测 和 记录 。 从 而 得 到 以 离子 质量 电 
“标的 质谱 数据 。 质 谱 仪 由 进 样 系统 、 离 子 源 、 分 离 系统 和 


检测 系统 四 大 部 分 构成 ， 每 个 部 分 都 有 多 种 实现 方式 。 图 4 简单 描绘 了 质谱 仪 的 构成 。 


(aime fy 


质谱 技术 的 历史 
可 追溯 到 19 世纪 末 。 
1899 年 汤姆 逊 (Joseph 
John Thomson) 发 明了 
第 一 台 抛 物 线 质谱 装 
置 。 随 着 技术 的 改进 ， 
20 世纪 50 年 代 后 期 质 
谱 仪 广泛 地 应 用 于 无 
机 化 合 物 和 有 机 化 
合 物 的 测定 。 二 十 


于 生物 大 分 子 分 析 的 ESI 


领域 得 到 了 深入 应 用 。 


的 发 展 ， 主 要 是 液 相 - 质 谱 联 月 


世纪 50-80 年 代 ， 质 谱 技 术 进 入 繁荣 时 期 。 到 了 20 世纪 80-90 年 代 ， 质 谱 技 术 得 到 革命 性 


图 4， 质 谱 仪 构成 


技术 以 及 电 喷 雾 离子 化 (Electrospray ionization, ESD 和 基质 辅 
助 激光 解吸 附 离子 化 (Matrix Assisted Laser Desorption/Ionization, MALDD 两 种 软 电 离 技术 的 
发 展 。20 世纪 80 年 代 ， 芬 恩 (John Fenn) 和 田中 


H#t— (Koichi Tanaka) 分 别 发 明了 能 够 用 


质谱 技术 和 MALDI 质谱 技术 ， 他 们 因此 与 维特 里 希 (Kurt 
Wiithrich) 共同 获得 了 2002 年 的 诺 贝 尔 化 学 奖 。20 世纪 90 年 代 开 始 ， 质谱 技术 在 生命 科学 


因此 分 为 两 大 类 。 


第 一 类 是 基于 一 级 质谱 的 ， 称 作 肽 质量 指纹 作 图 。 这 类 方法 搜索 已 知 蛋白 质数 据 库 ,用 
里 论 一 级 质谱 。 理论 一 级 质谱 与 实验 一 级 质谱 进行 比 


指定 的 酶 对 和 蛋白质 进行 模拟 水 解 ,得 到 


在 用 于 蛋白 质 分 析 的 质谱 技术 中 ,和 蛋白质 样品 首先 被 选 定 的 蛋白 酶 水 解 ， 形 成 多 肽 。 不 
同 质量 电 蓓 比 的 多 肽 离子 被 质谱 仪 分 离 、 检 测 出 来 ,得 到 一 级 质谱 。 这些 肽 离子 可 以 进一步 
被 打 碎 ， 形 成 碎片 离子 。 碎 片 离子 被 分 离 和 检测 便 得 到 串联 质谱 。 用 质谱 鉴定 蛋白 质 的 方法 


较 , 结果 按照 匹配 的 程度 排序 。 这 样 的 系统 有 MOWSE!!, Mascot!*!, ProFound!”, Peptident'*!, 
MS-Fit I 等 等 。 肽 质量 指纹 作 图 适用 于 蛋白 质 样品 包含 一 种 蛋白 质 或 简单 的 混合 物 的 情况 。 


其 缺点 是 由 于 蛋白 质 混合 物 和 污染 物 、 


水 分 子 的 氨基 酸 )、 质 量 精度 等 因素 的 影 


MS/MS) 准 确 测定 肽 的 氨基 酸 序 列 ， 再 通过 肽 


分 酶 解 、 残 基 修 饰 ( 所谓 复 


基 酸 残 基 是 指 去 掉 一 个 
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响 ， 往 往 误差 较 大 ， 导 致 搜索 结果 错误 。 
第 二 类 是 基于 串联 质谱 的 。 这 类 方法 首先 利用 串联 质谱 技术 (Tandem Mass Spectrometry, 


部 列 鉴定 蛋白 质 的 序列 。 所 以 ， 这 种 方法 可 以 


用 于 鉴定 复杂 的 蛋白 质 混 合 物 或 者 验证 肽 质量 指纹 搜索 的 结果 , 是 目前 最 常用 最 有 效 的 主流 


方法 ， 下 面 加 以 详细 介绍 。 


在 典型 的 液 相 色谱 -串联 质谱 联 用 实验 中 ， 蛋 白质 样品 首先 被 蛋白 酶 水 解 得 到 多 肽 混合 


物 ， 然 后 通过 液 相 色谱 分 离 并 被 离子 化 。 在 质谱 仪 中 ， 具 有 特定 质量 电荷 比 的 肽 离子 被 选择 
过 滤 后 ， 在 某 种 能 量 艇 击 ， 比 如 碰撞 诱导 的 裂解 (Collision-Induced Dissociation，CID)9 或 电 


子 转运 裂解 (Electron Transfer Dissociation, ETD)", HHH FRR. ERAGI, Shki 
的 碎片 ， 即 N- 端 的 a，b，e 碎片 和 C- 端 的 x，y，z 人 雄 片 ， 如 图 
性 的 水 或 者 氨 分 子 09， 保 留 了 母 离子 电荷 的 碎片 离子 、 没 有 碎 


断裂 能 够 生成 主要 六 个 系列 
5 所 示 。 碎片 可 能 丢失 一 个 
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Hf 


串联 质谱 蛋白 质 鉴定 的 关键 计算 问题 


裂 的 母 离子 、 污 染 物 、 以 及 碎 裂 产生 的 其 它 类 型 的 离子 被 检测 出 来 。 在 低能 量 裂解 时 ， 一 个 
肽 离子 上 一 般 只 有 一 处 发 生 肽 键 断裂 。 产 生 的 离子 类 型 主要 是 ab 和 y 型 碎片 离子 。 通 过 
测量 具有 不 同 质量 电荷 比 的 离子 的 强度 形成 串联 质谱 中 的 谱 峰 。 图 6 是 串联 质谱 的 一 个 例 
子 。 
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图 5. CID 作用 下 肽 离子 碎 裂 形成 的 碎片 离子 


为 了 鉴定 蛋白 质 ， 从 串联 质谱 鉴定 肽 的 氨基 酸 序列 是 中 心 问题 。 从 串联 质谱 鉴定 肽 序列 
的 计算 方法 有 三 种 。 最 常用 的 是 数据 库 搜 索 方 法 ， 如 文献 [6, 9, 13-18]。 在 这 种 方法 中 ， 数 据 
库 中 的 蛋白 质 序列 被 理论 水 解 和 碎 裂 ， 生 成 理论 串联 质谱 。 把 理论 质谱 与 实验 质谱 相 比 较 ， 
从 而 找到 生成 实验 质谱 的 肽 序列 。 本 文 就 是 针对 这 种 方法 进行 介绍 。 


第 二 种 是 从 头 (de novo) 测 序 方 
法 ， 它 通过 直接 解释 串联 质谱 数据 来 
进行 肽 序列 鉴定 ， 而 不 是 与 数据 库 中 
的 序列 进行 比较 , 比如 文献 [19-26] 等 。 
当 数 据 库 中 没有 目标 序列 时 ， 搜 索 数 
据 库 的 方法 就 无 能 为 力 了 ， 所 以 不 得 
不 使 用 从 头 测序 的 方法 。 但 是 该 方法 
的 难点 在 于 要 求 质谱 数据 有 较 高 质 


Nii 


n) 


相对 强度 


0 10 20 30 40 50 60 70 80 90 100(%) 


0 100 200 300 400 500,600 700 800 900 1000 量 ， 肽 断裂 情况 良好 ， 所 以 目前 尚未 
质量 电荷 比 得 到 广泛 的 实际 应 用 。 不 过 从 头 测序 
图 6， 串联 质谱 示例 方法 即使 不 能 完全 测 出 肽 序列 ， 也 能 
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提供 重要 的 肽 序列 标签 ( 儿 个 氨基 酸 组 成 的 短 肽 片段 )， 供 数据 库 搜索 参考 。 


第 三 种 方法 是 序列 标签 查询 的 方法 ”1, 首先 从 串联 质谱 中 人 工 或 自动 地 获得 肽 序列 的 
片段 信息 ， 然 后 利用 这 些 部 分 序列 信息 查询 数据 库 ， 得 到 肽 的 全 序列 。 这 种 方法 是 前 两 种 方 
法 的 结合 ， 近 年 来 受到 越 来 越 多 的 关注 。 


关于 基于 串联 质谱 的 肽 鉴定 ， 最 近 有 一 些 比较 详尽 的 综述 文献 上 。 


3 “数据库 检索 打分 算法 


在 利用 串联 质谱 鉴定 蛋白 质 的 方法 中 , 蛋白 质 鉴定 问题 归 约 为 更 基本 的 肽 鉴定 问题 。 而 
数据 库 搜索 方 法 是 目前 普遍 采用 的 肽 鉴定 方法 。 给 定 实验 串联 质谱 ， 对 数据 库 中 的 候选 肽 进 
行 匹 配 打 分 是 肽 鉴定 算法 的 核心 。 对 肽 打分 鉴定 结果 的 评价 ， 即 识别 出 正确 鉴定 的 肽 序列 ， 
也 是 必 不 可 少 的 一 步 。 


所 谓 “ 肽 打分 ”是 指 : 给 定 实验 串联 质谱 ， 对 候选 肽 产生 该 质谱 的 可 能 程度 做 出 评分 ， 
从 而 对 所 有 候选 肽 进行 排序 。 用 信息 检索 的 语言 描述 ， 这 里 的 串联 质谱 即 是 输入 的 查询 ， 候 
选 肽 即 是 数据 库 中 保存 的 对 象 , 而 肽 打分 函数 实际 上 就 是 检索 函数 或 称 排 位 函数 。 肽 打分 函 
数 的 功能 就 是 对 候选 肽 进行 排 位 , 把 最 可 能 产生 实验 质谱 的 肽 序列 排 在 首位 。 可 以 把 肽 打分 
函数 按 构 造 方式 分 为 三 类 。 第 一 类 基于 谱 癌 量 点 积 ; 第 二 类 基于 概率 ; 第 三 类 基于 机 器 学 习 ， 
或 者 说 基于 模式 分 类 。 


3.1 基于 谱 向 量 点 积 的 肽 打分 算法 


在 基于 谱 疝 量 点 积 (spectral dot product，SDP) 的 肽 打分 算法 中 ， 是 把 理论 质谱 和 实验 质 
谱 重 登 的 程度 作为 候选 肽 的 分 值 ， 而 这 种 重 且 可 以 用 癌 量 间 的 点 积 运 算 描述 。 在 SDP 中 ， 
理论 和 实验 质谱 分 别 被 表示 为 NN 维 向 量 c=[cusc …cw] 和 t=[6b…stw] PO. SEH, NIT 
使 用 的 不 同 质量 值 的 数量 ，c 和 tt 可 以 取 0/1 值 ， 也 可 以 取 串 联 质 谱 中 第 i 个 质量 值 的 离子 
强度 。 实 验 和 理论 串联 质谱 间 的 SDP 定义 为 : 


SDP =e.t=Y 0 


i=l 


如 果 两 个 谱 向 量 是 相同 的 , 那么 它们 应 该 是 平行 的 。 而 向 量 的 点 积 恰 好 反映 了 它们 平行 
的 程度 ， 因 此 可 作为 肽 匹配 的 分 值 。 


在 文献 [36] 中 ， 基 于 SDP 的 谱 差 角 被 用 作 质 谱 的 相似 性 度量 。 文 献 [37] 利 用 这 种 度量 识 
别 由 相同 肽 序列 产生 的 质谱 。 早 期 使 用 的 “共有 峰 计数 ”(Shared Peaks Count，SPC) 打 分 方 
法 就 是 谱 向 量 点 积 的 最 简单 形式 。 所 谓 SPC 是 指 理论 和 实验 质谱 之 间 匹 配 的 碎片 离子 的 数 
目 。 所 以 ，SPC 对 应 于 SDP P c Alt HL O/1 值 的 情况 。Sonar MS/MS 5 ”软件 是 使 用 SDP 
作为 肽 打分 函数 的 典型 代表 ， 它 将 质谱 表示 成 向 量 形式 并 直接 计算 谱 向 量 的 点 积 作为 分 数 。 


目前 使 用 最 广泛 的 商业 肽 鉴定 软件 之 一 SEQUEST04 是 利用 信号 间 的 交叉 相关 分 析 来 
比较 质谱 的 ,而 其 中 的 交叉 相关 运算 实际 上 也 是 基于 谱 向 量 点 积 的 。 首先 按 一 定 规则 对 匹配 
的 氨基 酸 序 列 预 测 其 质谱 ， 再 对 实验 质谱 做 适当 处 理 ， 以 使 两 个 质谱 之 间 交 又 -相关 分 析 能 
够 反映 出 碎片 离子 的 相似 度 。 作 为 离散 信号 的 实验 谱 x(t) 和 理论 谱 y(t) 之 间 的 交 又 -相关 如 
下 计算 : 
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i= 


R, = 2 li}yli+7] T 


1 
i=0 


其 中 ，z 是 两 个 信号 间 的 位 移 值 。 相 关 函 数 实际 上 是 测量 了 两 个 信号 间 的 相似 度 。 如 果 
两 个 信号 是 相同 的 ， 则 相关 函数 在 == 0 处 取 最 大 值 。SEQUEST 打分 公式 定义 为 : 


1 
X corr =R; =0)-— R, =k 
(9 而 Pes =H) 


可 见 ，Xev 分 值 在 实际 上 就 是 SDP 再 减 去 一 系列 位 移 的 SDP 的 均值 。 
3.2 基于 概率 的 肽 打分 算法 


另 一 类 肽 打分 算法 是 基于 概率 的 ， 如 Mascot *!, SCOPE!"*!, ProbID!'®!f1l PepSearchE?， 
以 及 文献 [40] 等 等 .Mascot 是 除了 SEQUEST 之 外 , 另 一 个 广泛 采用 的 商业 和 蛋白质 鉴 定 软件 。 
但 是 在 关于 Mascot 的 文献 里 , 并 没有 具体 给 出 Mascot 采用 的 肽 打分 算法 。 总体 来 说 , Mascot 
试图 计算 实验 串联 质谱 由 候选 肽 随机 生成 的 概率 p ， 而 候选 肽 分 数 为 -log(P) 。Mascot 的 


T 概率 打分 算法 综合 考虑 了 肽 长 度 的 分 布 、 酶 切 位 点 遗漏 概率 、 质 量 误差 分 布 以 及 离子 强度 等 
K 因素 。 
To) ot eee bee, 
= SCOPE 是 Celera 公司 设计 的 打分 算法 。 它 利用 贝 叶 斯 模型 进行 打分 ， 对 于 给 定 的 质谱 
© 求 每 个 序列 的 后 验 概率 。SCOPE 通过 用 两 步 随机 过 程 模拟 串联 质谱 生成 的 过 程 : 1) 根 据 概 
© 率 分 布 生成 肽 的 碎片 ， 2) 根据 仪器 测量 误差 ， 从 碎片 生成 质谱 。 
CD 
O ProbID 试图 计算 实验 串联 质谱 由 候选 肽 随机 生成 的 贝 叶 斯 后 验 概率 。 但 是 ProbID 计算 
的 概率 不 能 算 作 真 正 意义 上 的 概率 ， 而 只 不 过 是 若干 因素 的 简单 乘积 。 其 中 包括 亚 胺 离子 的 
= 出 现 情况 、 肽 序列 酶 切 点 是 否 满 足 酶 的 特异 性 、 匹 配 和 不 匹配 的 谱 峰 以 及 连续 和 互补 离子 的 
N 匹配 情况 等 等 。 

SCOPE 和 ProbID 虽然 在 不 同 层次 上 建立 了 打分 的 概率 模型 ,但 是 它们 的 共同 点 是 用 于 


计算 的 条 件 概 率 ， 如 不 同 离子 出 现 的 概率 、 误 差分 布 的 概率 、 离 子 强度 的 概率 分 布 等 都 是 根 
据 专家 经 验 指定 或 假定 的 ， 因 而 是 不 准确 的 。 


= BAEK (Havilio〉 等 人 (里 和 丹 西 克 (Dancik) 等 人 试图 从 质谱 数据 中 学 习 这 些 概 


率 。 文 献 [20] 从 数据 中 学 习 检 测 到 某 种 碎片 类 型 的 概率 ， 而 不 是 先 验 假定 的 。 文 献 [40] 中 的 
方法 是 对 文献 [20] 中 算法 的 推广 ， 设 计 了 一 系列 打分 函数 ， 可 以 包含 有 关 肽 碎 裂 的 各 种 各 样 
的 实验 观测 和 先 验 理 论 知 识 ,考虑 了 强度 间 的 相关 性 ， 雁 片 类 型 、 碎 片 质量 以 及 碎片 质量 
肽 质量 之 比 , 重要 的 离子 类 型 ， 如 同位 素 和 多 电荷 碎片 等 ， 这些 经 常 被 串联 质谱 分 析 软 件 忽 
略 。 学 习 参 数 的 过 程 是 自动 的 ， 即 把 质谱 的 质量 轴 划 分 成 等 宽 的 小 片断 ， 对 所 有 落 在 片断 上 
的 离子 ,计算 其 观测 强度 的 概率 。 如 果 假 设 碎 片 独立 ， 则 把 所 有 概率 相 乘 。 如果 有 相关 碎片 
对 ， 则 计算 相关 离子 对 的 联合 概率 。 这 种 做 法 的 缺点 在 于 质谱 数据 没有 经 过 标注 ， 只 是 粗略 
地 把 所 有 与 菜 个 谱 峰 都 下 配 的 离子 进行 统计 。 所 以 ， 其 统计 结果 必然 是 不 够 准确 的 。 其它 挖 
气质 谱 数 据 的 工作 中 也 存在 相同 的 问题 中 1。 


上 面 几 种 基于 概率 的 肽 打分 算法 是 对 肽 碎 裂 产生 质谱 的 过 程 进 行 概率 建 模 。 另 一 类 基于 
概率 的 肽 打分 算法 则 不 对 肽 碎 裂 的 过 程 进 行 建 模 , 而 是 针对 预测 离子 与 谱 峰 的 匹配 进行 概率 
建 模 。 比 如 ， 萨 迪 戈 夫 (Sadygov) MARHE (Yates ) 采用 超 几 何 分 布 (并 ， 弗 里 德 最 (Fridman) 
等 人 则 采用 一 种 更 复杂 形式 的 超 几何 分 布 后 ， 而 吉尔 (Geer) 等 人 采用 泊 松 分 布 针 。 这 类 
基于 概率 的 肽 打分 算法 的 优点 是 能 够 给 出 候选 肽 与 实验 质谱 正确 或 随机 匹配 的 概率 , 但 是 对 
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理论 质谱 预测 和 谱 峰 强度 信息 的 利用 不 够 。 
3.3 基于 机 器 学 习 的 肽 打分 方法 


肽 鉴定 本 质 上 可 以 看 作 将 候选 肽 分 为 “正确 ”和 “不 正确 ”的 两 类 分 类 问题 。 在 基于 机 
器 学 习 的 肽 打分 函数 中 ,候选 肽 与 实验 质谱 间 的 多 种 匹配 信息 被 表示 成 特征 向 量 的 形式 ， 然 
后 利用 机 器 学 习 方法 从 序列 已 知 的 质谱 训练 数据 中 学 习 出 一 个 打分 函数 ,虽然 信息 检索 中 的 
检索 函数 机 器 学 习 方 法 早 就 存在 了 , 但 是 直到 最 近 才 被 应 用 到 肽 鉴定 问题 中 来 。 多 种 机 器 学 
习 算法 被 应 用 在 SEQUEST 软件 搜索 结果 的 分 类 上 ， 如 文 持 向 量 机 〈support vector machine, 
SVM) M, HAt, ge (Logistic regression) “9, LA boosting 算法 和 随机 
森林 (random forest) EERI AA, tHE LAR A SI Fr ASE AT KS EFT OD HE BY WR 
利用 很 多 种 匹配 指标 ， 将 每 种 指标 作为 模式 的 一 个 维度 。 如 何 把 这 些 指标 融合 成 一 个 肽 打分 
函数 ， 完 全 成 为 机 器 学 习 方 法 的 任务 ， 不 需要 用 户 的 介入 。 实 际 上 ， 如 何 把 众多 的 匹配 指标 
综合 成 一 个 肽 打分 函数 ， 一 直 是 肽 打分 设计 的 难点 之 一 。 鉴 于 机 器 学 习 方 法 的 灵活 性 ， 后 来 
有 研究 者 开始 利用 机 器 学 习 方 法 直接 构造 独立 的 肽 打分 函数 , 而 不 是 仅仅 满足 于 对 已 有 肽 鉴 
定 软 件 搜索 结果 的 后 处 理 [50, 51]。 实 际 上 ， 基 于 数据 库 搜索 的 肽 鉴定 本 身 就 是 一 个 具体 的 
信息 检索 问题 , 因此 用 机 器 学 习 方 法 直接 构造 独立 的 肽 打分 函数 本 质 上 就 是 信息 检索 中 的 检 
索 函 数 或 者 排 位 函数 (Ranking function) 学 习 问 题 。 当 然 ， 检 索 函 数 可 以 是 判别 性 的 ， 也 可 
以 只 有 排序 功能 。 


4 ”鉴定 结果 可 靠 性 的 统计 评估 


对 于 每 个 质谱 ， 在 数据 库 搜索 之 后 ， 尽管 总 会 有 一 个 得 分 最 高 的 候选 肽 , 但 是 这 个 候选 
肽 不 一 定 就 是 正确 的 。 造 成 这 种 结果 的 可 能 原因 有 很 多 ， 比 如 : 肽 打分 算法 是 不 完美 的 ， 总 
会 有 犯错 误 的 情况 ， 没 能 把 正确 的 肽 序列 排 第 一 名 ; 搜索 的 蛋白 质 序 列 库 是 不 完全 的 ， 不 包 
含 目标 肽 序列 ;输入 的 质谱 数据 完全 由 噪音 产生 ,不 包含 有 效 信息 ; 目标 肽 发 生 了 未 预料 到 
的 修饰 ， 或 由 不 正常 的 酶 切 产 生 ， 等 等 。 所 以 ， 在 肽 打分 后 ， 应 该 确定 获得 最 高 分 的 肽 是 否 
是 正确 的 答案 。 也 就 是 说 ， 要 对 肽 打分 结果 的 可 靠 性 进行 评估 ， 找 出 正确 的 肽 鉴定 结果 。 


By 


m 


the 对 肽 鉴定 结果 可 靠 性 的 评估 早期 使 用 的 是 经 验 阔 值 法 。 顾 名 思 义 ,经 验 阔 值 法 就 是 根据 
= ZUG XS GATT oy a EE eS BL, 7 CE BE EAE RA RU EY TE SS ce 
9 的 例子 是 SEQUEST 软件 (和 。SEQUEST 输出 的 两 个 主要 分 值 是 Xcorr 和 DeltCn 。 过 去 ， 这 


两 个 分 值 被 广泛 用 于 SEQUEST 肽 打分 结果 的 过 滤 。 比 如 ， 一 种 常用 的 过 滤 准 则 是 要 求 
DeltCn 大 于 0.1， 同 时 ， 对 于 带 一 个 、 两 个 和 三 个 电 蓓 的 肽 ，Xcorr 要 分 别 大 于 1.9、2.2 和 
3.7571, $x} SEQUEST， 也 有 在 后 处 理 步骤 中 计算 更 好 的 分 值 来 进行 过 滤 的 方法 ， 如 
RScoret 1。 在 基于 概率 的 肽 打分 算法 中 ,虽然 计算 的 目标 是 真实 匹配 或 随机 匹配 的 概率 ， 但 
是 前 面 已 经 指出 ， 由 于 各 种 各 样 的 原因 ， 这 样 的 概率 客观 上 是 无 法 准确 计算 的 。 因此， 基于 
概率 的 肽 打分 方法 通常 仍 需 要 指定 一 个 闵 值 , 或 者 使 用 附加 的 评价 方法 。 经 验 阔 值 法 的 好 处 
是 简单 直观 ,但 缺点 也 很 明显 ， 那 就 是 阔 值 的 指定 只 和 任 经 验 , 缺少 理论 上 的 依据 。 当 数据 库 
规模 增 大 时 ,错误 候选 肽 的 最 高 分 也 会 水 涨 船 高 。 并 且 ， 根 据 阔 值 过 滤 出 的 结果 ， 其 可 靠 性 
没有 定量 的 估计 。 使 用 经 验 阔 值 是 一 种 武断 的 做 法 , 实际 上 , 无 论 肽 鉴定 结果 的 得 分 有 多 高 ， 
都 带 有 或 多 或 少 的 不 确定 性 。 为 了 有 效 估计 鉴定 结果 的 可 靠 性 ， 必 须 利 用 统计 手段 。 目 前 ， 
使 用 最 多 的 鉴定 结果 可 靠 性 统计 度量 指标 是 针对 单 谱 鉴定 的 期 望 值 和 针对 多 谱 鉴 定 的 假发 


—= 


! SEAS VUES MED RSID AEE, FEB AS ERD RS 
”一 个 包含 多 个 决策 树 的 分 类 器 
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现 率 ?(False discovery rate , FDR). 
4.1 期 望 值 方法 


期 望 值 (通常 缩写 为 E-value) 指 一 个 随机 变量 的 平均 值 。 在 生物 信息 学 领域 的 序列 比 
对 问题 中 [54-56] 首 先 成 功 应 用 了 期 望 值 方 法 ， 序列 比 对 程序 BLAST 最 初 使 用 了 期 望 值 来 度 
量 序列 比 对 得 分 随机 发 生 的 可 能 性 (http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1 
.htmD)。 在 肽 鉴定 中 ， 给 定 一 张 谱 图 和 条 随机 候选 肽 ， 我 们 感 兴趣 的 随机 变量 是 得 分 至 少 
为 x 的 错误 候选 肽 的 数目 。 在 含义 上 ， 分 值 x 的 期 望 值 就 是 能 以 随机 的 方式 得 到 等 于 或 超过 
分 值 x 的 候选 肽 的 数目 的 期 望 。 比 如 ， 假 设 在 一 次 数据 库 搜 索 中 一 个 候选 肽 得 分 的 期 望 值 为 
10“， 这 意味 着 , 平均 要 做 十 万 次 这 样 的 搜索 , 才能 随机 地 得 到 等 于 或 大 于 这 个 分 值 的 得 分 。 
所 以 ， 从 理论 上 讲 ， 如 果 一 个 候选 肽 对 应 的 期 望 值 大 于 1， 就 可 以 排除 这 个 候选 肽 了 ， 因 为 
即使 是 完全 随机 的 情况 ， 平 均 也 会 有 一 个 候选 肽 得 到 相同 或 更 高 的 分 值 。 


随机 分 值 的 概率 分 布 决定 了 期 望 值 的 计算 方法 。 依 据 概 率 分 布 来 源 的 不 同 ， 期望值 的 计 


算 方法 可 分 为 三 类 ， 即 经 验 拟 合 法 、 理 论 建 模 法 和 穷 举 计算 法 。 经 验 拟 合法 是 通过 拟 合 实际 
m= 的 分 值 分 布 数据 估计 概率 分 布 , 理论 建 模 法 是 通过 假定 某 种 随机 概率 模型 从 理论 上 推导 分 值 
ra 的 随机 分 布 ， 穷 举 计 算法 是 通过 穷 举 所 有 可 能 候选 肽 得 到 分 值 的 真实 分 布 。 通 过 经 验 拟 合法 
Te) 计算 期 望 值 的 搜索 引擎 有 Sonal, X!Tandem®”!, pFind*, A RAId_DbSk0 等 ， 通 过 理 
= WORE HW 8 5 | Mascot F OMSSAL， 穷 举 计 算法 则 是 最 近 由 金 (Kim) 
已 等 人 提出 的 四。 三 种 方法 各 有 优 缺点 ， 经 验 拟 合法 适用 于 任意 类 型 的 打分 函数 ， 但 要 求 必 
cm 须 有 足够 的 候选 肽 规模 以 拟 合 分 值 分 布 以 及 恰当 的 分 布 形式 假设 ; 理论 建 模 法 对 于 任意 给 定 
© 的 一 条 肽 序列 都 可 以 计算 其 期 望 值 , 但 是 只 适用 于 基于 概率 的 打分 函数 , 准确 性 取决 于 概率 
N 模型 的 准确 性 ; 穷 举 计算 法 能 够 直接 计算 出 分 值 的 真实 分 布 , 但 是 只 适用 于 加 和 性 的 打分 函 
O 数 ， 并 且 计 算 复杂 度 较 高 。 经 验 拟 合法 是 目前 最 常用 和 最 成 功 的 期 望 值 计 算 方 法 ， 下 面 予 以 
N 简单 介绍 。 


在 肽 鉴定 数据 库 搜索 中 ,给 定 一 张 谱 图 ,至 多 只 能 有 一 个 候选 肽 是 正确 的 ， 所 以 可 以 认 
为 几乎 所 有 的 候选 肽 都 是 错误 的 。 经 验 的 期 望 值 计算 方法 就 是 直接 把 一 次 数据 库 搜索 产生 的 


四 所 有 候选 肽 分 值 用 于 随机 分 值 分 布 的 拟 合 中 。 假 设 错误 候选 肽 的 分 值 满 足 一 定形 式 的 概率 
r= 分 布 ， 并 从 经 验 数 据 中 估计 出 参数 ,就 可 以 推测 出 得 分 不 小 于 x 的 概率 P.， BER LBA 
© 打分 的 候选 肽 数目 ， 就 得 到 期 望 值 。 


文献 [38] 假 设 随机 分 值 x 服 从 极 值 分 布 。 根 据 这 个 假设 ，PR. 与 x 在 高 分 值 区 域 有 近似 的 
对 数 线 性 关系 ， 即 


log(P.)= clog x + cp 


其 中 ， 系 数 c 和 的 值 可 以 从 一 次 搜索 中 候选 肽 分 值 分 布 的 高 端 部 分 估计 。 当 只 估计 
出 来 之 后 ， 对 任意 候选 肽 的 分 值 ， 就 可 以 计算 其 期 望 值 了 。XI TANDEM 软件 就 采用 了 这 个 
方法 来 计算 期 望 值 5 1 。 


日 是 ， 并 不 是 所 有 的 打分 算法 都 符合 上 述 的 分 布 假设 。 实 际 上 ， 关 于 上 述 期 望 值 计算 方 
法 在 肽 鉴定 问题 中 的 适用 性 以 及 如 何 拟 合 分 值 分 布 最 近 引起 了 一 些 讨论 5 四。 虽然 期 望 值 
有 明确 的 定义 ,但 是 各 个 软件 计算 出 的 期 望 值 并 没有 严格 的 绝对 意义 ， 因 为 在 计算 中 总 要 做 
一 些 假设 和 近似 。 实 际 上 ， 各 个 软件 在 计算 期 望 值 时 采用 的 假设 不 同 ， 实 现 方法 也 有 差别 ， 


S 亦 有 译作 “错误 发 现 率 ”或 “ 假 阳性 率 ” 
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原始 打分 相 比 ,期望值 考 虑 了 分 值 分 布 和 数据 库 的 规模 , 因而 可 以 看 作 归 一 化 后 的 相对 分 值 。 
我 们 要 做 的 是 让 期 望 值 的 估计 值 尽 可 能 地 接近 真实 值 。 


4.2 假发 现 率 方法 


上 面 介 绍 的 期 望 值 实现 了 对 单个 肽 鉴定 结果 的 可 靠 性 评估 。 但 在 蛋白 质 组 实验 中 , 一 次 
性 鉴定 的 谱 图 往往 不 是 一 个 而 是 成 千 上 万 ， 对 于 用 给 定 的 肽 打分 〈 或 期 望 值 ) 阔 值 过 滤 得 到 
的 大 量 肽 鉴定 结果 ， 需 要 从 整体 上 评估 其 可 靠 性 。 目 前 ， 针 对 肽 鉴定 结果 群体 可 靠 性 的 评估 
通常 采用 计算 假发 现 率 [9 的 方法 。FDR 的 计算 可 分 为 两 大 类 ， 一 类 是 拟 合 某 种 分 值 分 布 模 
型 来 估计 后 验 错 误 概 率 ; 另 一 类 是 通过 引入 诱饵 序列 库 作 为 对 照 。 从 机 器 学 习 的 角度 讲 ， 前 
者 是 无 监督 的 ， 后 者 是 有 监督 的 。 

PeptideProphet 是 最 具 代表 性 和 最 成 功 的 基于 模型 的 假发 现 率 估计 方法 1。 每 次 蛋白 质 
组 实验 会 产生 大 量 的 串联 质谱 , 通过 数据 库 搜 索 , 每 个 质谱 都 会 被 分 配 到 一 个 得 分 最 高 的 候 
WK. PeptideProphet 方法 就 是 基于 对 这 些 候 选 肽 最 高 分 值 分 布 的 分 析 。 在 PeptideProphet 


一 方法 中 ，SEQUEST 给 出 的 几 种 分 值 首 先 被 线性 合并 为 一 个 判别 分 值 ， 并 假设 错误 匹配 的 判 
= 别 分 值 服 从 伽 玛 分 布 ， 而 正确 匹配 的 判别 分 值 服 从 高 斯 分 布 。 针 对 每 次 具体 实验 ， 
(O PeptideProphet 使 用 期 望 最 大 化 (EM) 算 法 对 判别 分 值 的 分 布 进行 参数 估计 ， 从 而 找到 能 在 最 


大 程度 上 区 分 正确 和 错误 匹配 的 分 值 阔 值 ， 同 时 对 错误 率 做 出 估计 。 


目前 使 用 更 普遍 的 假发 现 率 计 算 方 法 是 基于 诱饵 《decoy) 序列 库 搜 索 的 方法 。 所 谓 诱 
饵 序列 是 指 一 定 不 包含 目标 蛋白 的 序列 ,搜索 这 样 的 序列 得 到 的 结果 一 定 是 错误 的 结果 , Bl 
而 可 作为 阴性 样本 来 估计 假发 现 率 。 诱 饵 序列 通常 是 目标 序列 的 反 转 , 或 者 随机 生成 的 序列 ， 
或 者 是 根据 某 种 概率 模型 生成 的 序列 。 诱 饵 序列 的 特点 是 ， 必 须 不 包含 目标 序列 ， 同 时 又 其 
有 目标 序列 的 “特征 ”。 这 样 ， 佑 计 的 假发 现 率 才 准 确 。 目 前 ， 利 用 反 转 库 估计 假 阳 性 率 的 方 
法 简单 而 实用 ， 已 经 被 蛋白 质 学 界 广泛 采用 ， 成 为 蛋白 质 组 数据 假 阳 性 分 析 的 一 种 标准 
中 。 利 用 反 转 库 方法 估计 假发 现 率 的 步骤 如 下 : 


1. ”将 包含 目标 蛋白 的 数据 库 中 的 序列 反 转 ， 得 到 反 向 序列 ， 并 将 反问 序列 与 正 问 序 
列 合 并 ， 形 成 所 谓 的 目标 -诱饵 (target-decoy) 数据 库 ; 
2. ”用 任意 肽 鉴定 软件 搜索 目标 -诱饵 数据 库 , 对 一 次 蛋白 质 组 实验 产生 的 所 有 质谱 进 


4a WA 


IT&E: 

3. ”采用 任意 单 谱 评价 方法 对 肽 打分 结果 进行 过 滤 ， 得 到 阳性 肽 鉴定 结果 ; 

4. “估计 阳性 肽 鉴定 结果 的 假发 现 率 : 令 Ni 表示 肽 序列 来 自 正 向 蛋白 序列 的 阳性 肽 鉴 
EMH: N, 表示 肽 序列 来 自 反 癌 和 蛋白 序列 的 阳性 肽 鉴定 数目 (如 果 肽 打分 和 过 滤 


算法 都 是 有 效 的 ， 应 有 N, < N; ， 实 际 上 ， 一 般 是 N, << Ni)， 则 及 鉴定 结果 的 候 
发 现 率 为 ; 


FDR = x100% 
N,+N 


rt Ne 
上 面 的 假发 现 率 计 算 公 式 是 基于 这 样 的 假设 : 正确 鉴定 中 肽 序列 一 定 来 自 正 向 蛋白 序 
列 ， 而 错误 鉴定 的 肽 序列 来 自 正 向 蛋白 序列 或 反 向 蛋白 序列 的 可 能 性 是 一 样 的 。 因 为 正 向 序 
列 和 反 向 序列 的 长 度 是 一 样 的 。 所 以 , 可 以 认为 正 向 序列 肽 鉴定 结果 中 包含 了 数目 与 反 向 序 
列 肽 鉴定 数目 相同 的 假 阳性 鉴定 结果 。 
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5 蛋白质 修饰 鉴定 


蛋白 质 在 从 信使 核糖 核酸 翻译 形成 后 ， 可 能 会 在 某 些 氨 基 酸 上 增加 某 种 功能 团 , 或 增加 
了 其 它 的 蛋白质 或 肽 ,或 改变 了 和 氨基酸 的 化 学 性 质 或 结构 。 这 一 过 程 被 称 为 发 生 了 化 学 修饰 。 
由 于 该 过 程 发 生 在 翻译 过 程 之 后 , 因此 被 称 为 蛋白 质 的 翻译 后 修饰 (PTM, Post-Translational 
Modification)。 翻 译 后 修饰 能 够 改变 氨基 酸 的 化 学 性 质 ， 引 起 蛋白 质 结构 的 改变 ， 调 控 和 蛋白 
质 的 活性 和 功能 。 翻译 后 修饰 在 生物 体内 的 存在 非常 普遍 , 绝 大 多 数 的 蛋白 质 都 会 含有 一 个 
或 多 个 翻译 后 修饰 。 研究 翻译 后 修饰 对 于 阐明 蛋白质 的 功能 , 解释 重大 疾病 的 发 生机 理 等 具 
有 十 分 重要 的 意义 [5 门 。 对 人 类 蛋白 质 组 的 研究 表明 ， 对 于 较 高 (>1%) 表达 水 平 的 胰 蛋 白 
酶 酶 切 肽 段 ， 平 均 每 个 氨基 酸 都 几乎 有 一 种 修饰 形式 [2。 除 了 体内 发 生 的 修饰 ， 在 样品 处 
理 中 也 不 可 避免 地 会 引入 很 多 种 修饰 门 。 蛋 白质 修饰 的 种 类 繁多 ， 截止 至 2009 年 6 月 24 
日 ，Unimod 修饰 数据 库 中 己 有 590 条 记录 。 基 于 质谱 技术 的 蛋白 质 组 学 为 大 规模 翻译 后 修 
饰 研究 提供 了 有 效 的 分 析 手 段 " 9。 目前 , 利用 串联 质谱 数据 鉴定 发 生 修饰 的 蛋 和 白质 已 经 成 
为 蛋白 质 组 学 研究 的 核心 和 前 沿 问题 之 一 。 


> 为 了 鉴定 发 生 翻 译 后 修饰 的 和 蛋白质, 一 种 常见 的 基于 串联 质谱 的 鉴定 方法 是 在 数据 库 搜 
~ 索 时 指定 一 些 可 变 修饰 类 型 ， 然 后 在 生成 候选 肽 时 同时 考虑 发 生 和 不 发 生 指 定 修饰 的 情况 ， 


当 候 选 肽 中 有 多 个 可 能 的 修饰 位 点 时 考虑 所 有 可 能 的 组 合 。 这 种 方法 考虑 到 了 和 蛋白 质 翻 译 后 
修饰 的 动态 性 〈 相 同 的 氨基 酸 位 点 可 能 发 生 某 种 修饰 ， 也 可 能 不 发 生 )， 但 由 于 天 然 存在 或 
人 工 引 入 的 修饰 类 型 有 几 百 种 。 所 以 , 在 数据 库 搜 索 时 考虑 过 多 的 修饰 类 型 是 不 现实 的 。 这 
会 导致 搜索 空间 组 合 爆炸 ， 大 大 降低 数据 库 搜索 的 速度 ， 同 时 导致 假 阳性 搜索 结果 增多 。 现 
有 技术 中 的 相应 搜索 引擎 ， 如 SEQUEST 和 Mascot， 容 许 指 定 的 可 变 修饰 类 型 一 般 不 超过 
10 种 ， 这 显然 不 能 满足 实际 需要 。 在 一 般 情 况 下 ， 实 验 人 员 对 和 蛋白质 样 品 中 存在 的 修饰 类 
型 知之 甚 少 ， 主 要 依靠 经 验 猜 测 。 大 多 数 时候 ， 和 蛋氨酸 上 的 氧化 修饰 是 数据 库 搜 索 时 唯一 指 
定 的 可 变 修饰 。 这 样 就 可 能 会 遗漏 样品 中 存在 的 其 它 修饰 类 型 。 同 时 ， 很 多 由 修饰 肽 产生 的 
质谱 数据 得 不 到 解析 。 这 种 指定 若干 种 修饰 类 型 的 做 法 被 称 为 限制 性 修饰 鉴定 , 具有 盲目 性 、 
搜索 空间 组 合 爆炸 、 不 能 发 现 新 类 型 修饰 等 严重 问题 。 


蛋白 质 序 列 数据 库 太 大 和 可 变 修饰 类 型 数目 太 多 , 共同 导致 了 候选 肽 空间 组 合 爆炸 的 问 
题 。 如 果 把 搜索 限于 较 小 的 和 蛋白质 数据 库 ， 则 可 以 多 考虑 一 些 可 变 修饰 类 型 。 一 种 常用 的 办 
法 是 二 次 精细 数据 库 搜索 "1。 在 第 一 次 搜索 时 ， 搜 索 整 个 蛋白 质数 据 库 ， 但 仅 考 虑 最 少 的 
可 变 修饰 类 型 以 及 最 严格 的 酶 切 方式 。 在 第 二 次 搜索 中 , 用 在 第 一 次 搜索 中 鉴定 出 的 肽 捷 在 
的 蛋白 质 组 成 一 个 小 的 数据 库 , 在 其 上 进行 精细 搜索 ,考虑 更 多 的 可 变 修饰 类 型 ， 以 及 宽松 
的 酶 切 方式 和 序列 突变 等 。 这 种 方法 最 早 在 MASCOT 软件 中 使 用 。 其 基本 假设 是 实验 
样品 中 含有 的 每 个 蛋白 质 至 少 有 一 个 肽 段 可 在 第 一 次 搜索 中 被 鉴定 出 来 ' 中 。 这 种 先 粗糙 搜 
Ro 再 精细 搜索 的 策略 ， 可 以 大 大 提高 搜索 的 速度 和 可 变 修饰 类 型 的 种 类 。 同 时 ， 因 为 考虑 
了 更 多 的 修饰 类 型 以 及 酶 切 方式 和 序列 突变 , 可 以 鉴定 出 更 多 的 肽 及 其 变 体 。 可 谓 一 举 双 得 。 
但 是 ， 如 果 上 述 假设 不 满足 ， 则 可 能 漏 掉 一 些 肽 和 蛋白 质 及 其 变 体 。 而 且 ， 这 种 二 次 搜索 仍 
需要 用 户 指定 一 个 可 变 修 饰 类 型 列表 ， 仍 属于 限制 性 的 修饰 鉴定 。 所 以 ， 无 法 检测 出 列表 之 
外 的 和 未 知 的 修饰 类 型 。 


为 了 使 数据 库 搜索 方法 能 够 应 用 于 未 知 的 或 预料 之 外 的 修饰 类 型 鉴定 , 最 直接 的 办 法 就 
是 放 开 肽 - 谱 匹 配 的 肽 质量 限制 ， 让 正确 的 候选 肽 序列 进入 搜索 空间 ， 跟 实验 谱 图 进行 匹配 
操作 。 这 样 做 无 疑 大 大 增加 了 计算 量 ， 这 个 问题 稍 后 再 讨论 。 更 重要 的 是 ， 如 何 把 含有 修饰 
的 实验 谱 图 跟 没 有 修饰 的 候选 肽 序列 进行 匹配 , 使 得 正确 的 候选 肽 序列 能 够 被 发 现 ， 并 确定 
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修饰 质量 和 位 点 。MS-Alignment EKTA HF REMAK ARS, MS-Alignment 以 
一 种 类 似 基 因 组 学 中 序列 比 对 的 方式 , 将 理论 质谱 与 实验 质谱 相 比 对 , 允许 任意 修饰 的 出 现 。 


但 是 ，MS-alignment 算法 有 几 个 方面 的 不 足 : 1) 寻找 实验 谱 跟 肽 序列 的 最 优 匹配 的 计 
算 复杂 度 很 高 ， 数 据 分 析 速 度 非常 慢 ， 实 际 应 用 中 只 能 针对 非常 少量 的 蛋白 序列 进行 搜索 ; 
2) 为 了 使 用 动态 规划 算法 比 对 理论 谱 和 实验 谱 ， 不 得 不 使 用 简单 形式 的 打分 函数 ， 降 低 了 
谱 图 比 对 的 准确 性 ; 3) 搜索 结果 的 可 靠 性 低 , 陈 等 人 四 最 近 的 一 项 研究 显示 , MS-alignment 
算法 严重 低估 了 结果 的 假发 现 率 ; 


由 相同 序列 肽 的 修饰 和 非 修 饰 形式 分 别 产 生 的 谱 图 即 为 一 种 典型 的 相关 谱 图 。 实 际 上 ， 
由 于 修饰 的 动态 性 ， 同 一 个 肽 的 修饰 和 非 修 饰 形式 往往 同时 存在 。 这 就 给 非 限制 性 翻译 后 修 
饰 检测 提供 了 另 一 个 线索 一 一 通过 识别 修饰 - 非 修饰 肽 产生 的 相关 谱 图 对 来 检测 修饰 。 谱 图 
网 络 算法 就 是 基于 这 一 原理 ， 通 过 识别 相关 谱 图 对 来 检测 翻译 后 修饰 和 突变 等 5J。 但 是 ， 
谱 图 网 络 算法 是 利用 MS-alignment 算法 计算 谱 图 相似 性 ， 因 而 同样 面临 着 计算 量 巨 大 的 问 
题 。 另 外 ， 如 果 一 个 肽 发 生 了 某 种 修饰 ， 但 其 非 修饰 形式 不 存在 或 者 不 能 被 质谱 仪 检 测 到 ， 
或 者 修饰 - 非 修饰 谱 图 对 相似 性 不 充分 ， 则 基于 谱 图 对 的 方法 就 不 适用 了 。 


非 限制 性 翻译 后 修饰 检测 作为 蛋白 质 组 学 研究 的 最 前 沿 , 吸引 了 越 来 越 多 的 研究 者 们 进 
行 尝试 和 探索 。 有 研究 者 提出 了 先 利 用 从 头 测试 技术 得 到 肽 序列 片段 , 再 通过 序列 匹配 定位 
和 蛋白质 ， 进 一 步 确定 翻译 后 修饰 质量 和 位 点 的 方法 9" 中 。 但 是 ， 这 种 策略 严重 依赖 于 质谱 
图 的 信号 质量 ， 而 从 头 测序 本 身 是 个 尚未 很 好 解决 的 问题 FJ。 萨 维 茨 基 〈Savitski) SAPI 
是 出 了 两 种 肽 碎 裂 模式 〈ECD ACAD) 联 用 的 修饰 检测 方法 ， 但 是 只 适用 于 这 种 特殊 的 质 
谱 操作 模式 。 可 以 说 ， 针 对 非 限 制 性 翻译 后 修饰 检测 的 研究 还 在 摇篮 之 中 ， 目 前 尚 没有 成 熟 
的 解决 方案 。 


6 ”计算 所 研制 的 pFind 蛋白 质 鉴定 系统 
中 科 院 计算 所 生物 信息 学 研究 组 自 2002 年 起 开始 研究 基于 生物 质谱 数据 的 蛋白 质 鉴定 


算法 和 软件 ,在 质谱 数据 信号 处 理 、 理 论 质谱 图 预测 、 谱 图 相似 性 度量 、 和 蛋白 质 翻译 后 修饰 
检测 、 数 据 库 索 引 以 及 搜索 引擎 设计 等 方面 提出 了 一 系列 创新 性 算法 和 技术 , 在 此 基础 上 独 


Wr 


下 


立 开 发 了 我 国 第 一 个 也 是 唯 个 蛋白 质 及 其 翻译 后 修饰 的 规模 化 鉴定 软件 系统 pFind 
Q (http://pfind.ict.ac.cn). pFind 使 用 核 谱 向 量 点 积 (KSDP) 作为 核心 匹配 打分 算法 ， 对 传统 点 


积 打分 算法 做 了 非 线 性 扩展 中 ， 利 用 数据 库 索 引 、 搜 索 流 程 和 并 行 计算 技术 加 速 数 据 库 搜 
索 8” 嘻 ， 利 用 谱 图 聚 类 方法 快速 地 从 质谱 数据 中 检测 潜在 的 修饰 类 型 史 。 除 核心 搜索 引擎 
外 ，pFind 还 包括 结果 分 析 、 谱 图 标注 、 数 据 库 处 理 等 多 种 配套 支持 软件 5 “0， 总 计 超 过 21 
万 行 代码 。pFind 并 行 版 也 已 经 开始 投入 使 用 。 目 前 ，pFind 系统 在 精度 和 速度 上 已 经 达到 
国际 主流 商业 软件 如 SEQUEST 和 Mascot 的 水 平 .pFind 系统 已 在 国内 外 知名 学 术 期 刊 和 会 
议 上 发 表 学 术 论 文 10 余 篇 65255729， 并 得 到 国际 同行 的 认可 和 引用 ;申请 发 明 专 利 8 项 ， 
其 中 3 项 已 获得 授权 ; 申请 软件 著作 权 12 项 。 


pFind 系统 目前 已 经 在 国内 10 余 家 和 蛋白质 组 研究 单位 示范 应 用 ， 包 括 中 科 院 上 海 生 化 
细胞 所 、 生 物 物理 所 、 基 因 组 所 、 动 物 所 、 化 物 所 ， 北 京 蛋 白质 组 研究 中 心 、 生 命 科学 研究 
所 、 人 类 基因 组 北方 中 心 、 协 和 医科 大 学 基础 医学 所 和 肿瘤 所 ， 以 及 上 海 生 物 信 息 中 心 、 复 
且 大 学 等 ， 总 计 安 装 pFind 系统 62 套 。2008 年 ，pFind 参加 了 ABRF( 生 物 分 子 资源 实验 室 
WA, Association of Biomolecular Resource Facilities) 组 织 的 国际 蛋白 质 鉴 定数 据 分 析 评 测 ， 
在 鉴定 准确 度 和 假 阳 性 率 控 制 能 力 方面 表现 出 很 强 竞 争 力 ， 开始 在 国际 上 多 露头 角 。 北京 蛋 
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100 余 个 核心 岩 藻 糖 修饰 位 点 ， 是 目前 已 有 报道 中 最 多 的 ， 对 于 后 续 癌 症 早 期 标记 物 发 现下 
究 意 义 重大 。 该 合作 成 果 于 2009 年 发 表 在 蛋白 质 组 学 领域 国际 著名 期 刊 《 分 子 与 细胞 蛋白 
组 学 (Molecular & Cellular Proteomics)} "0%, XÆ pFind 软件 第 一 次 成 功 应 用 于 真实 生物 


究 中 心 利用 pFind 系统 鉴定 核心 岩 汇 糖 修饰 ， 从 人 类 肝癌 血浆 样品 中 成 功 鉴定 了 


学 问题 并 得 到 国际 一 流 学 术 期 刊 的 认可 。 


7 ”总结 


I 


中 最 重要 的 问题 之 


o 


蛋白 质 组 学 研究 方兴未艾 , 基于 质谱 数据 的 蛋白 质 及 其 修饰 鉴定 是 


一 。 本 文 从 数据 库 检 索 匹 配 打 分 、 检 索 结 果 可 靠 性 评估 、 修 饰 鉴定 等 儿 个 方面 介绍 了 蛋白质 
鉴定 搜索 引擎 面临 的 关键 计算 问题 。 这 些 问题 目前 还 没有 良好 的 解决 , 有 的 已 成 为 恒 白 质 组 
学 数据 分 析 的 瓶颈 。 这 一 方面 为 计算 领域 提出 了 重大 的 挑战 ， 另 一 方面 也 是 计算 技术 发 挥 作 
用 、 解 决 生命 科学 问题 的 机 会 。 我 国 在 这 方面 的 研究 团队 较 少 ， 但 已 经 到 达 领 域 的 最 前 沿 。 


只 要 我 们 增强 信心 ， 加 信和 努力 ，pFind 和 蛋白质 鉴定 系统 必 将 在 未 来 的 蛋白 质 组 学 研究 中 发 挥 
更 大 的 作用 。 
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